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上 一 节 课 ， 我 们 介绍 了 Linear Regression 线 性 回归 ， 以 及 用 平方 错误 来 寻找 最 佳 的 权 
重 向 量 w， 获 得 最 好 的 线性 预测 。 本 节 课 将 介绍 Logistic Regression 逻 辑 回 归 问 题 。 


一 、Logistic Regression Problem 


一 个 心脏 病 预 测 的 问题 : 根据 患者 的 年 龄 、 血 压 、 体 重 等 信息 ， 来 预测 患者 是 否 会 有 
心脏 病 。 很 明显 这 是 一 个 二 分 类 问题 ， 其 输出 y 只 有 {-1,1} 两 种 情况 。 


二 元 分 类 ,一 般 情况 下 ， 理 想 的 目标 逊 数 f(x)>0.5， 则 判断 为 正 类 1; 若 f(x)<0.5， 则 判 
断 为 负 类 -1。 


ge | 40years | 
gender | mae | 


blood pressure 130/85 
cholesterol level 240 


heart disease? yes 











unknown target 
distribution P(y|x) 


containing f(x) + noise 
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binary classification: 
ideal f(x) = sign (P(+1|x) — 3) € {—1,+1} 
because of classification err 





但 是 ， 如 果 我 们 想 知 道 的 不 是 患者 有 没有 心脏 病 ， 而 是 到 底 患者 有 多 大 的 几率 是 心脏 


病 。 这 表示 ， 我 们 更 关心 的 是 目标 函数 的 值 (分 布 在 0,1 之 间 ) ， 表 示 是 正 类 的 概率 
( 正 类 表示 是 心脏 病 ) 。 这 跟 我 们 原来 讨论 的 二 分 类 问题 不 太一 样 ， 我 们 把 这 个 问题 
称 为 软 性 二 分 类 问题 (soft binary classification) 。 这 个 值 越 接近 1， 表 示 正 类 的 可 能 
性 越 大 ， 越 接近 0， 表 示 负 类 的 可 能 性 越 大 。 
Soft binary classification: 
f(X) = P(+1|x) € [0,1] 


对 于 软 性 二 分 类 问题 ， 理 想 的 数据 是 分 布 在 [0,1] 之 间 的 具体 值 ， 但 是 实际 中 的 数据 只 
可 能 是 0 或 者 1， 我 们 可 以 把 实际 中 的 数据 看 成 是 理想 数据 加 上 了 噪声 的 影响 。 


target function f(x) = P(+1|x) e [0, 1] 







actual (noisy) data 


人 =o0 ~ 人 


[el (Tol ESI elts 


X1,y1: =0.9 = P(+1|x1)) 
X2, y2 0 = P(+1|x2)) 





X2,y2> =x ~P(y|x2) 


(xw = 0.6 = P(+1|xn)) (own = x ~ P(ylxn) ) 





same data as hard binary classification, 
different target function | 

如 果 目 标 函 数 是 f(x) 二 P( 十 1|zx) € [0, 1| 的 话 ， 我 们 如 何 找到 一 个 好 的 Hypothesis 

跟 这 个 目标 函数 很 接近 呢 ? 

首先 ， 根 据 我 们 之 前 的 做 法 ， 对 所 有 的 特征 值 进行 加 权 处 理 。 计 算 的 结果 s， 我 们 称 之 


为 'risk score ' : 


。 Forx = (Xo, A , Xa) features of 
patient , calculate a weighied risk score 


d 
Ss 二 >》， WiXi 
=0 


。 Convert the score to estimated probability 
by logistic function 0(s) 


但 是 特征 加 权 和 s € (一 00, 十 00)， 如 何 将 s 值 限定 在 [0,1] 之 间 呢 ? 一 个 方法 是 使 用 


sigmoid Function， 记 为 9(s)。 那 么 我 们 的 目标 就 是 找到 一 个 hypothesis: 
h(x) = 0(w’ x7). 


e。 For X = (Xo,X1,X2,::. ,Xg) features of 
patient, calculate a weighied ‘risk score : 





d 
S = 三 > Vi XI 
0 











。 convert the score to estimated probability 
by logistic function 9(s) 





logistic hypothesis: h(x) = 9(w’ x) 


ee 满足 (一 co) 一 0, 0(0) 一 了 
0( 十 co) 二 1。 这 个 函数 是 平滑 的 、 单 调 的 S 型 函数 。 则 对 于 逻辑 回归 问题 ， 
hypothesis 就 是 这 样 的 形式 : 


Sigmoid Function 函 数 记 为 0(s) = 


1 
(z) 1 十 e 一 wz 
那 我 们 的 目标 就 是 求 出 这 个 预测 函数 h(x)， 使 它 接近 目标 国 数 f(x)。 


二 、Logistic Regression Error 


现在 我 们 将 Logistic Regression 与 之 前 讲 的 Linear Classification、Linear Regression 
做 个 比较 : 


linear classification 






linear regression 


logistic regression 





h(x) = sign(s) h(x) = 9(s) 
> 作 ~ h(x) > = h(x) 
plausible err = 0/1 friendly err = squared 

err=? 


(small flipping noise) (easy to minimize) 


这 三 个 线性 模型 都 会 用 到 线性 scoring function s 二 wz。linear classification 的 误差 
使 用 的 是 0/1 err; linear regression 的 误差 使 用 的 是 squared err。 那 么 logistic 
regression 的 误差 该 如 何 定 义 呢 ? 


先 介 绍 一 下 “ 似 然 性 "的 概念 。 目 标 函 数 f(zx) 三 Z)， 如 果 我 们 找到 了 
hypothesis 很 接近 target function。 也 就 是 说 ， 在 所 有 的 Hypothesis 集 合 中 找到 一 个 
hypothesis 与 target function 最 接近 ， 能 产生 同样 的 数据 集 D， 包 含 y 输 出 label， 则 称 这 
个 hypothesis 是 最 大 似 然 likelihood。 





Likelihood 
target function _ [ f(x) fory = +1 
f(x) = P(+1|x) > = { E09 
consider D = {(Xx1, °), (X2, xX),..., (XN, x)} 
likelihood that generates D 
P(x1)h(X1) x 
P(x2)(1 一 h(x2)) x 


probability that generates D 


P(x1 )f (Xx1 ) x 
P(x2)(1 — f(x2)) x 


P(xN)(1 — f(xN)) P(xXN)(1 — h(xn)) 








e if 二 帮 
then likelihood(h) ~ probability using f 
。 probability using f usually large 





logistic function: h(x) = 90(w7 2) 满 足 一 个 性 质 : 1 一 h(x) = h( 一 z)。 那么， 似 然 
性 h: 


likelihood(h) = P(xzi1)h(+2z1) x P(x2)h(—7z2) x :…. P(zN)h(—zN) 


因为 P(x ) 对 所 有 的 h 来 说 ， 都 是 一 样 的 ， 所 以 我 们 可 以 忽略 它 。 那 么 我 们 可 以 得 到 
logistic h 正 比 于 所 有 的 h(yn,x) 乘 积 。 我 们 的 目标 就 是 让 乘积 值 最 大 化 。 


N 
max likelihood(logistic h) lI h(ynXn) 


如 果 将 w 代 入 的 话 : 


N 
max likelihood(W) cx [[ 0 (ynw xn) 


1 一 


为 了 把 连 乘 问题 简化 计算 ， 我 们 可 以 引入 In 操作 ， 让 连 乘 转化 为 连 加 : 


max In ] 0 (ynw xn ) 


站 一 


接着 ， 我 们 将 maximize 问 题 转化 为 minimize 问 题 ， 添 加 一 个 负 号 就 行 ， 并 引入 平均 数 
操作 方 : 


AN 


min Ing (ynw xn) 


= 


将 logistic function 的 表达 式 带 入 ， 那 么 minimize 问 题 就 会 转化 为 如 下 形式 : 


N 
1 - h 天 
0(s) = re 2 In ( + exp(—ynW xn) ) 
N 
一 min 7 2 er(W Xn yn) 
n=1 


Ein(W) 


至 此 ， 我 们 得 到 了 logistic regression 的 err function， 称 之 为 cross-entropy error 交 叉 炳 
误差 : 


err(W, X, y) = In (1 + exp(—yWX)): 
cross-entropy error 


二 、Gradient of Logistic Regression Error 


我 们 已 经 推导 了 i; 的 表达 式 ， 那 接 下 来 的 问题 就 是 如 何 找到 合适 的 向 量 w， 让 Ein 最 


小 。 


AN 
min En(W) = DIn (1+ exp(—yow Txn)) 


1 一 人 


Logistic Regression 的 im 是 连续 、 可 微 、 二 次 可 微 的 凸 曲线 (开口 向 上 ) ， 根 据 之 前 
Linear Regression 的 思路 ， 我 们 只 要 计算 i;;, 的 梯度 为 零 时 的 wv， 即 为 最 优 解 。 


®。 Ein(W): continuous, differentiable, 
twice-differentiable, convex 


e。 how to minimize? locate valley 


want VEn(w) =0 





对 Bin 计算 梯度 ， 学 过 微 积 分 的 都 应 该 很 容易 计算 出 来 : 





En(w) = N jn 1 + exp(—ynW" xn) 
回 





OEn(w) _ 1 天 人 2 bY | EE . ue 


i 
| 


刁 
=h 


1 
二 一 op(O)] E23 

:二 
以/ _ exp(O) te z 
| (3 加 ee 


最 终 得 到 的 梯度 表达 式 为 : 


N 
VEn(W) = 2 0 (—ynW xn) (一 Jpxn) 
1 一 1 
为 了 计算 Bi 最 小 值 ， 我 们 就 要 找到 让 VY Bin, (w) 等 于 0 的 位 置 。 


N 
min En(w = Nn (1+exp(-ynw xn)) 


n=1 


want VEn(w) 


Le r 
N > (~yow xn (Wx 一 0 


n=1 


上 式 可 以 看 成 0( 一 ynw7 了 zn) 是 一 yn Xn 的 线性 加 权 。 要 求 06( 一 yw 了 zn) 与 ynzxn 的 
线性 加 权 和 为 0， 那 么 一 种 情况 是 线性 可 分 ， 如 果 所 有 的 权重 0( 一 yw zx ) 为 0， 那 
就 能 保证 V Bin (ww) 为 0。0( 一 yn2w7 zn) 是 sigmoid function， 根 据 其 特性 ， 只 要 让 
一 ynwl zn < 多 0， 即 yw zn 之 0。 wr.w! 六 0 表示 对 于 所 有 的 点 ，Vn 与 

wl zn 都 是 同 号 的 ， 这 表示 数据 集 D 必 须 是 全 部 线性 可 分 的 才能 成 立 。 

然而 ， 保 证 所 有 的 权重 0( 一 yw x ) 为 0 是 不 太 现 实 的 ， 总 有 不 等 于 0 的 时 候 ， 那 么 
另 一 种 常见 的 情况 是 非 线性 可 分 ， 只 能 通过 使 加权 和 为 零 ， 来 求解 w。 这 种 情况 没有 
closed-form 解 ， 与 Linear Regression 不 同 ， 只 能 用 人 迭代 方法 求解 。 







iets|[=Te We /Ie llo IU eo) 





。 all 9(:) = 0: onlyif yw’'xn > 0 
—linear separable D 


。 Weighted sum = 0: 
non-linear equation of w 


closed-form solution? no :-( 


之 前 所 说 的 Linear Regression 有 closed-form 解 ， 可 以 说 是 “一步 登 天 "的 ; 但 是 PLA 算 
法 是 一 步 一 步 修 正 迭 代 进 行 的 ， 每 次 对 错误 点 进行 修正 ,不 断 更 新 w 值 。PLA 的 迭代 
优化 过 程 表示 如 下 : 


PLA: start from some wo (say, 0), and "correct its mistakes on D | 
Fori 一 


@ (equivalently) pick some n, and update wr by 


wii 1 全 Wi 十 |sign (w xn) 四 ynl Ys 


when stop, return last w as 9 








Ww 每 次 更 新 包含 两 个 内 容 : 一 个 是 每 次 更 新 的 方向 yn, Xn， 用 Vv 表示 ， 另 一 个 是 每 次 更 
新 的 步 长 7。 参 数 (v2, mn) 和 终止 条 件 决定 了 我 们 的 迭代 优化 算法 。 


En 一 
@ (equivalently) pick some m, and update wr by 


Wi el (|sign (wr xn 四 ynl ynxn) 
OO 


V 


7 
when stop, return last w as 9 


choice of (7, Vv) and stopping condition defines 
iterative optimization approach | 


四 、Gradient Descent 





根据 上 一 小 节 PLA 的 思想 ， 迭 代 优化 让 每 次 w 都 有 更 新 : 


ED 二 ONTE 
Wi+1 人 Wi 十 TV 


when stop, return last w as 9 


我 们 把 Bin, (ww) 曲线 看 做 是 一 个 山谷 的 话 ， 要 求 Bi;n, (w) 最 小 ， 即 可 比 作 下 山 的 过 程 。 
整个 下 山 过 程 由 两 个 因素 影响 : 一 个 是 下 山 的 单位 方向 v; 另外 一 个 是 下 山 的 步 长 。 


。 PLA:vV comes from mistake correction 


。 smooth Ein(W) for logistic regression: 
choose vto get the ball roll 'downhill ? 
e direction v: 
(assumed) of unit length 
e Step Size 7: 
(assumed) positive 


In-sample Error, Ein 


Weights，w 





agreedy approach for some given 7 > 0: 







min Ein(Wi + nV) 
IIvll=1 一 一 
Wit+1 


利用 微分 思想 和 线性 近似 ， 假 设 每 次 下 山 我 们 只 前 进 一 小 步 ， 即 7 很 小 ， 那 么 根据 泰 
勒 Taylor 一 阶 展开 ， 可 以 得 到 |: 


Fin (wr 十 7v) 窜 Bin (ui ) 十 nr V ,bs (wi ) 


关于 Taylor 展 开 的 介绍 ， 可 参考 我 男 一 篇 博客 : 
多 元 函数 的 泰勒 (Taylon 展 开 式 


迭代 的 目的 是 让 瓦 ” 越 来 越 小 ， 即 让 瓦 m (wi 十 710) < Bin (wi)。7 是 标量 ， 因 为 如 
果 两 个 向 量 方向 相反 的 话 ， 那 么 他 们 的 内 积 最 小 (为 负 ) ， 也 就 是 说 如 果 方 向 v 与 梯 
度 y Bin, (wi ) 反 向 的 话 ， 那 么 就 能 保证 每 次 迭代 Bi (wi 十 To) < Bin (wt ) 都 成 立 。 
则 ， 我 们 令 下 降 方向 为 : 

V Ein (wi ) 

|V Ein (wi)|| 


J 是 单位 向 量 ，% 每 次 都 是 沿 着 梯度 的 反方 向 走 ， 这 种 方法 称 为 梯度 下 降 (gradient 
descent) 算法 。 那 么 每 次 迭代 公式 就 可 以 写成 : 


17 = 


t+H Wi 一 个 二 二 二 一 一 一 
Ht Ew) 


下 面 讨 论 一 下 7 的 大 小 对 迭代 优化 的 影响 : 7 如 果 太 小 的 话 ， 那 么 下 降 的 速度 就 会 很 
慢 ; 7 允 果 太 大 的 话 ， 那 么 之 前 利用 Taylor 展 开 的 方法 就 不 准 了 ， 造 成 下 降 很 不 稳定 ， 
甚至 会 上 升 。 因 此 ，7] 应 该 选择 合适 的 值 ， 一 种 方法 是 在 梯度 较 小 的 时 候 ， 选 择 小 的 7 
， 梯 度 较 大 的 时 候 ， 选 择 大 的 7， 即 7 正比 于 ||V_Bin (wi ) 上 |。 这 样 保证 了 能 够 快速 、 
稳定 地 得 到 最 小 值 Bi, (w)。 





small 7 


In-sample Error, Ein 
In-sample Error, Ein 
In-sample Error, Ein 








Weights, w 
too slow :-( 






Weights, w 
too unstable :-( 






Weights, w 
use changing 7 





7 better be monotonic of ||V Ein (Wi)|| 


对 学 习 速 率 7 做 个 更 修正 ， 梯 度 下 降 算 法 的 迭代 公式 可 以 写成 : 


Wi 全 Wi — WV Bin (wi) 


中 


，_ n 
[VEin (wi)|| 


总 结 一 下 基于 梯度 下 降 的 Logistic Regression 算 法 步骤 如 下 : 
。 初始 化 wo 
。 计 算 梯度 V Bin (wi) = 广 D1 0(—yn wT zn)(—yn rn) 
。 迁 代 跟 新 ww ;1 全 wi 一 17V Bin (wi) 
。 满足 V Bin (wy1 ) 六 0 或 者 达到 进 代 次 数 ， 迁 代 结束 


Uy 


五 、 总 结 


我 们 今天 介绍 了 Logistic Regression。 首 先 ， 从 逻辑 回归 的 问题 出 发 ， 将 己 ( 十 Hz) 作 
为 目标 函数 ， 将 0(w7 z) 作 为 hypothesis。 接 着 ， 我 们 定义 了 logistic regression 的 err 
function， 称 之 为 cross-entropy error 交 叉 炳 误差 。 然 后 ， 我 们 计算 logistic regression 
error 的 梯度 ， 最 后 ， 通 过 梯度 下 降 算 法 ， 计 算 V Ein (wt) 六 0 时 对 应 的 wi 值 。 

注 明 : 


文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 基石 》 课 程 


